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摘要 :时序 重 构 是 时 域 天 文学 中 的 一 个 重要 数据 处 理 步 又， 也 是 拟 合 光 变 曲线 、 开 展 时 域 分 析 
研究 的 基础 。Hadoop、Spark 这 类 MapReduce 分 布 式 模型 在 执行 过 程 中 分 布 式 集群 节点 间 的 
任务 比较 独立 ， 需 要 跨 节点 的 数据 传输 量 较 少 。 提 出 了 非 阻塞 异步 执行 流程 ， 每 个 分 布 式 进程 完 
全 针对 独立 天 区 的 数据 进行 连续 处 理 ， 而 分 块 边缘 的 新 增 天 体 导 致 的 其 他 节点 的 新 增 证 认 任 务 
延 时 批量 追加 ， 并 且 会 根据 各 进程 间 的 进度 不 同 确定 追加 方式 ， 保 证 证 认 计 算 没 有 遗漏 ， 从 而 在 
提高 并 发 效率 的 同时 保证 算法 的 精度 。 此 外 ， 对 两 表 间 的 不 同 Join 策略 从 理论 和 实验 两 个 角度 
进行 了 研究 并 提出 了 免 Join 策略 。 最 后 通过 基于 Spark 分 布 式 框架 的 高 效 时 序 重 构 系统 的 设计 
完成 了 以 上 研究 的 验证 。 实 验 表 明 ， 与 以 往 研究 结果 相 比 ， 该 时 序 重 构 算法 效率 提升 明显 ， 为 时 
域 天 文学 中 的 天 文 时 序数 据 分 析 的 开展 打下 了 良好 的 基础 。 
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1 引 言 


在 时 域 天 文学 中 ， 如 何 对 相同 望远镜 的 连续 多 次 观测 记录 进行 交叉 证 认 以 确定 每 一 天 
体 在 不 同 观 测 记 录 间 的 对 应 关系 ， 从 而 生成 时 序数 据 ， 是 开展 时 域 天 文学 研究 的 基础 。 这 
一 过 程 涉及 的 数据 量 之 大 与 速度 要 求 之 高 往往 构成 矛盾 。 以 地 基 广 角 相 机 阵 (Ground Wide 
Angle Cameras, GWAC)" 为 例 ， 这 一 数据 处 理 过 程 需要 在 一 个 曝光 周期 内 完成 。 因 此 ， 设 
计 开 发 面向 大 视 场 时 域 巡 天 观测 的 高 效 时 序数 据 生成 方法 具有 重要 意义 。 
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近年 来 ， 时 域 观 测 技术 的 进步 为 时 域 天 文学 研究 提供 了 极其 丰富 的 数据 资源 ， 例 如 盖 
亚 (Gaia) DR3 发 布 了 34 个 月 收集 的 15.9 亿 个 源 和 4.7 亿 个 天 体 的 天 体 物 理 参数 。 再 如 


GWAC, 每 15s 产生 1.1 G 数据 ， 每 个 观测 夜 入 库 的 仅 星 表 数 据 可 以 高 达 2 TB”; XU 
综合 巡天 望远镜 (Large Synoptic Survey Telescope, LSST) 每 晚 产生 的 数据 量 达到 15 TB, 


10 年 期 的 运行 预计 收集 到 60 PB 的 数据 。 面 
新 归档 数据 ， 传 统 的 交叉 证 认 算 法 很 难 同 时 满足 精度 和 效率 要 求 。 


首先 是 数据 分 块 后 出 现 的 边界 漏 源 问题 对 精度 
括 : Zhao 等 人 ”在 每 个 星 表 中 增加 了 额外 的 边缘 数据 来 解决 该 问题 ， 但 是 实现 复杂 且 效 率 
KR. Du 等 人 "和 Yu 等 人 "采用 了 基于 HTM 和 HEALPix 两 种 索引 的 混合 证 认 计算 方 


法 ， 虽 减少 了 跨 界 点 的 数据 传输 量 ， 但 存储 量 、 计 算 量 明显 增加 ， 且 仍 存在 一 定 比例 的 漏 


FR 


对 如 此 庞大 的 积累 数据 和 每 天 都 在 高 速 产 生 的 


0 效率 的 影响 。 当 前 的 主要 解决 方法 包 


源 ， 精 度 有 所 损失 。 因 此 边缘 漏 源 问题 有 必要 继续 优化 。 
另 一 方面 ， 时 序 证 认 需 要 在 连续 观测 的 多 星 表 间 进 行 交 叉 证 认 计算 ， 因 此 计算 量 比 传 


统 多 波段 交叉 证 认 更 高 ， 需 要 在 并 行 计 算 框架 方面 进 
基于 多 线程 的 证 认 算法 来 加 速 计算 的 过 程 ，Zhao 等 人 


步 展 开 研究 。Du 等 人 "提出 了 一 种 


站 提出 的 多 核 并 行 交叉 证 认 算 法 ， 能 


够 对 1 亿 多 记录 和 4.7 亿 多 记录 的 星 表 进 行 交 义 证 认 。 然 而 这 些 方法 由 于 未 在 大 规模 分 布 式 


环境 下 执行 ， 对 于 多 星 表 间 的 时 序 重 构 需 求 ， 仍 然 存 在 一 定 的 性 能 限制 。 在 同 源 星 表 的 时 序 


研究 中 ，Yu & A" fg MPI 并 行 环境 下 实现 ] 


同 源 星 表 


行 环境 不 


下 的 并 行 执行 。 尽 管 提高 了 证 认 效 率 ， 但 该 j 


量 难 以 应 对 。 徐 丹 江 等 亿 提 出 了 一 种 基于 MongoDB 


的 时 序 重 构 ， 最 多 实现 了 在 6 个 进程 
易 扩 展 规模 ， 对 于 进一步 扩大 的 数据 
的 快速 时 序 重 构 算 法 ， 该 方法 对 时 序 


E 


重 构 问 题 的 非 关 系 型 数据 选择 方面 有 一 定 参 考 价值 ， 但 在 大 规模 分 布 式 框架 方面 结合 不 足 。 


因此 ， 针 对 大 规模 同 源 星 表 的 时 序 重 构 ， 需 要 引入 新 型 并 行 框架 ， 在 保证 精度 的 基础 上 进 一 


步 提 高 效率 。 
以 Hadoop. Spark 等 MapReduce 生态 系统 为 代表 的 云 计算 逐渐 成 为 大 数据 处 理 难 题 


的 重要 解决 方案 。 其 中 ，Spark 作为 基于 内 存 计算 的 通用 分 布 式 框架 ， 更 具有 效率 优势 。 近 
年 来 已 在 天 文 信息 处 理 方面 有 所 应 用 ， 如 Brahem 等 人 ”利用 Spark 平台 的 高 效 处 理 数据 特 


性 ， 提 出 了 一 种 天 文 数据 查 询 处 理 方法 。Zez 


evié 


等 人 "基于 Spark 提出 了 一 种 可 扩展 天 文 


分 析 框 架 。 刘 莹 等 人 一 结合 MapReduce/Spark 提出 一 种 基于 无 监督 聚 类 的 脉冲 星 候 选 体 和 
选 方案 。 可 见 ， 采 用 分 布 式 计算 技术 已 成 为 海量 数据 下 进行 天 文 研究 工作 的 一 种 发 展 趋势 。 


但 是 ， 直 接应 用 Spark 在 这 一 问题 上 并 不 适合 。 
分 布 式 模型 需要 执行 过 程 中 多 进程 任务 间 较 为 独立 ， 


因为 Hadoop、Spark 这 类 MapReduce 
否则 频繁 的 节点 间 通 信 会 成 为 这 一 模 


型 应 用 的 效率 瓶颈 。 但 因为 交叉 证 认 中 经 典 问题 一 一 边界 漏 源 问 题 一 一 的 存在 ， 边 缘 新 增 数 


据 的 传输 无 法 避免 ， 这 将 严重 降低 这 一 模型 实际 应 用 中 


异步 执行 流程 ， 每 个 分 布 式 进程 完全 针对 独立 天 区 的 数 


旁 节 点 新 增 证 认 任 务 延 迟 批量 退 加 ， 在 保证 说 


F 认 计算 没 


的 加 速 比 。 因 此 ， 我 们 设计 了 非 阻 塞 
据 进行 非 阻 塞 处 理 ， 新 增 星 体 导 致 的 
遗漏 的 前 提 下 显著 提高 并 发 效率 。 


此 外 ， 在 将 交叉 证 认 计 算 转 化 为 两 表 间 的 Join 操作 时 ， 采 用 何 种 优化 策略 也 是 效率 的 
关键 。 综 合 以 上 问题 ， 本 文 设计 了 适合 海量 星 表 的 分 布 式 时 序 重 构 算法 ， 并 在 以 下 三 方面 进 
行 重点 优化 : (1) 针对 边界 漏 源 问题 ， 设 计 了 适合 于 Spark 架构 的 非 阻塞 异步 执行 流程 ， 在 
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保证 精度 的 前 提 下 减少 了 数据 传输 量 ， 有 效 提高 了 算法 效率 ，(2) 将 时 序 证 认 转 化 为 大 表 、 
小 表 间 的 Join 和 运算， 对比 研究 了 两 种 不 同 的 Join 实现 策略 和 免 Join 运算 策略 ， 给 出 了 不 
同 算法 的 适用 情况 ，(3) 通过 基于 Spark 分 布 式 框架 的 时 序 证 认 系统 的 设计 和 实现 对 本 文 
究 内 容 进行 了 验证 。 


2 异步 非 阻 紧 多 进程 执行 模式 的 设计 和 数据 的 分 布 式 更 新 同步 


星 表 在 分 布 式 数据 划分 后 会 出 现 边界 漏 源 问 题 ， 即 由 于 误差 的 存在 ， 某 些 处 于 划分 边缘 
的 星体 在 另 一 次 观测 中 的 对 应 体 有 可 能 会 跨 过 边界 ， 出 现在 另 一 块 中 。 因 此 边缘 数据 需要 额 
外 的 处 理 才 能 提高 匹配 精度 。 又 由 于 在 时 序 重 构 中 ， 交 又 证 认 出 现在 连续 观测 星 表 间 ， 新 增 
的 星体 如 果 处 于 分 块 边缘 ， 就 需要 跨 节点 的 同步 更 新 。 如 果 分 布 式 架构 中 的 多 节点 采用 阻塞 
模式 运行 ， 可 以 保证 新 增 星 体 的 全 局 更 新 ， 但 这 意味 着 每 次 观测 记录 的 全 部 星体 计算 完成 
才能 开启 下 一 次 观测 数据 的 计算 ， 这 会 制约 整个 分 布 式 框架 效率 优势 的 发 挥 ， 并 导致 计算 资 
源 的 浪费 。 

为 了 解决 上 述 问题 ， 本 文 提出 的 异步 非 阻塞 多 进程 执行 模式 可 以 显著 提高 效率 和 并 发 
处 理 能 力 。 所 谓 非 阻塞 模式 ， 这 里 指 当 处 于 边缘 的 新 增 星 体 更 新 到 邻接 块 后 ， 邻 接 块 并 不 会 
停止 当前 的 批 处 理 计算 而 对 新 增 数据 进行 处 理 ， 而 是 继续 星 表 的 批 处 理 证 认 计算 ， 各 个 进程 
在 星 表 的 处 理 进 度 上 彼此 独立 ， 每 个 进程 都 可 以 高 效率 地 逐个 处 理 后 续 星 表 的 该 块 内 数据 。 
而 各 个 进程 因为 处 理 进度 不 同步 造成 的 新 增 数 据 的 证 认 遗 漏 将 在 批量 证 认 计算 结束 后 集中 
追加 。 这 种 非 阻塞 多 进程 模式 可 以 最 大 限度 地 利用 各 个 节点 的 计算 资源 ， 实 现 高 效率 并 行 处 
里 。 本 文 将 证 认 时 间 轴 上 的 最 早 星 表 作为 参考 星 表 ， 后 续 观 测 记录 中 的 每 个 星体 将 与 同一 个 
分 区 的 参考 星 表 中 的 星体 进行 两 两 球面 距离 计算 ， 计 算 公 式 为 : 


m 


d = arccos|sin 04 sin 62 + cosó; cosós cos(o1 — 02)] , (1) 


AB. (04,01) 为 天 体 A 的 坐标 ，(aa, 02) 为 天 体 B 的 坐标 。 当 两 个 天 体 的 角 距 离 非常 小 
时 ， 角 距离 公式 就 可 以 近似 为 : 


d= \/[(a1 — ag) cos ô]? + (0; —ó3)?. ， (2) 


其 中 ， 
ô = (ô1 +82)/2 . (3) 
由 于 存在 一 定 的 误差 半径 ， 假 设 两 个 星 表 的 误差 半径 分 别 为 m 和 ra， 如 果 两 个 天 体 满 
足以 下 关系 就 可 以 判定 其 为 同一 天 体 ; 


d <S Iri| + [ra] , (4) 


diz34/rzctri . (5) 
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由 于 不 同 观测 星 表 都 与 参考 星 表 进行 证 认 计算 ， 因 此 只 需要 对 参考 星 表 进行 边缘 副本 
见 余 存储 ， 减 少 了 副本 存储 数据 量 。 证 认 过 程 中 出 现 的 少量 新 增 天 体会 追加 在 参考 星 表 ， 如 
若 处 于 分 块 边缘 ， 还 需要 对 多 个 计算 节点 的 参考 星 表 同时 进行 更 新 。 
由 于 设计 了 非 阻塞 多 进程 计算 模式 ， 每 个 分 布 式 进程 完全 针对 独立 天 区 的 数据 进行 连 
续 处 理 ， 而 处 于 分 块 边缘 的 新 增 星 体 在 跨 节 点 同步 后 ， 如 果 出 现 了 进度 超前 而 遗漏 了 证 认 计 
算 的 情况 ， 将 在 后 期 进行 批量 弥补 。 由 此 可 见 ， 系 统 的 并 发 性 更 强 ， 计 算 资 源 利用 率 更 高 ， 
更 适合 于 海量 星 表 的 时 序 重 构 计 算 。 
具体 的 更 新 流程 示意 图 如 图 1 所 示 。 由 于 证 认 计 算 任务 是 异步 执行 ， 所 以 当前 块 与 相 
邻 块 证 认 进度 并 不 同步 ， 有 具体 新 增 星体 的 更 新 同步 问题 的 解决 方法 为 : 


当前 分 区 收 到 


相 邻 块 边缘 天 体 X 


X 时 间 比 当前 证 认 
星 表 时 间 超 前 ? 


与 当前 分 区 参考 加 入 当前 
星 表 的 天 体 证 认 分 区 参考 星 表 


补 错过 时 间 段 该 分 区 
天 体 与 X 的 证 认 


丢弃 此 边缘 天 体 X 


图 1 参考 星 表 边 缘 天 体 跨 节点 更 新 流程 图 


(1) 相 邻 块 证 认 进度 超前 。 此 时 需要 考虑 一 种 可 能 ， 若 边缘 天 体 X 是 个 超新星 ， 它 的 
首次 出 现 有 可 能 就 在 此 相 邻 块 ， 在 将 X 更 新 到 相 邻 块 参考 星 表 之 前 它 已 经 存在 。 如 图 2，A 
块 15 号 出 现 一 个 新 天 体 X， 因 为 X 处 于 A、B 间 的 边缘 位 置 ， 将 其 加 入 A 块 参考 星 表 的 
同时 发 送 给 B 块 所 在 节点 。 若 又 首次 出 现在 B 块 中 ， 发 现时 间 为 10 号 且 已 经 将 其 发 送 给 
A, Vl) A 块 就 不 会 在 15 号 出 现 新 天 体 X。 因 为 发 送 有 时 延 ， 没 有 及 时 更 新 到 A 块 的 参考 星 
所 以 才 会 再 次 被 发 现 ， 而 B 块 在 15 号 之 前 已 经 出 现 天 体 X。 因 此 ， 当 也 块 所 在 节点 收 到 天 
体 X 时， 只 需 与 B 块 参考 星 表 11 号 至 25 号 的 新 增 天 体 数据 进行 证 认 : AENT, E 
FIEX, ANX 在 B 中 之 前 已 被 发 现 ; 若 证 认 失 败 ， 加 入 也 块 的 参考 星 表 中 并 与 B 块 11 
号 至 25 号 这 段 时 间 所 有 天 体 进 行 证 认 。 


后 
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续 天 体 进行 证 认 ， 若 后 
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HEALPix 块 : A HEALPix 块 : B 


发 送 X 到 相 邻 块 B 


15 号 新 增 天 体 X 25 号 收 到 天 体 X 


导致 
未 收 到 天 体 X 


发 送 X 到 相 邻 块 A 


10 号 已 新 增 天 体 X 


1 于 延 时 ，A 块 未 及 时 更 新 


图 2 ” 相 邻 块 证 认 进度 超前 边缘 更 新 示意 图 


(2) 相 邻 块 证 认 进度 落后 。 将 边缘 天 体 加 入 相 邻 块 的 参考 星 表 中 ， 根 据 天 体 拍摄 时 间 和 
续 星 表 中 的 天 体 拍摄 时 间 比 该 天 体 拍摄 时 间 早 ， 则 不 进行 证 认 。 


T 


3 两 表 间 不 同 Join 策略 对 比 


为 了 实现 相同 块 号 下 两 两 星体 的 
法 是 利用 数据 库 中 的 连接 (Join) 操作 ; 


HDFS 文件 数据 和 算 子 操作 。 本 章 详细 介 


E 离 计算 和 阐 值 判断 ， 本 文 考虑 了 两 种 方法 : 一 种 方 


另 一 种 则 是 不 利用 Join 操作 ， 而 直接 采用 Spark 中 
基于 Join 的 方法 ， 非 Join 方法 详 见 4.2 节 。 


为 了 实现 距离 计算 和 阔 值 过 滤 ， 采 用 不 等 值 连 接 ， 连 接 条 件 即 为 参考 星 表 中 的 一 条 记录 
与 待 证 认 表 中 一 条 记录 的 球面 距离 值 小 于 阔 值 ， 即 公式 (1) 一 (5)， 连 接 成 功 的 结果 即 为 证 认 


成 功 的 记录 对 。 为 了 提高 处 理 


的 性 能 ， 采 用 哈 希 连接 (Hash Join)， 将 连接 字段 的 值 映 射 到 


哈 希 表 中 的 桶 中 ， 以 减少 reshuffle 或 重 排序 ， 对 于 大 规模 数据 有 良好 的 适应 性 。 


考 星 表 数 据 作为 小 表 ， 其 他 连续 时 间 轴 
验 对 比 了 两 种 适合 于 小 表 和 大 表 间 的 
Hash Join (BHJ). 


Shuffle 操作 。 目 的 是 让 两 张 表 中 相同 键 的 数据 分 在 一 个 分 


考虑 到 参考 星 表 的 数据 需要 和 连续 时 间 轴 上 的 其 他 星 表 进行 一 一 证 认 计算 ， 所 以 将 参 
上 的 星 表 整 合 后 作为 大 表 ， 为 了 进一步 提高 性 能 ， 实 
哈 希 连接 策略 : Shuffle Hash Join (SHJ) 和 Broadcast 


SHJ 的 实现 是 将 大 表 和 小 表 根 据 连 接 的 键 按照 HashPartitioner 方法 进行 重新 分 区 ， 即 
区 内 ， 然 后 对 同一 个 分 区 内 的 数 


据 执 行 连接 操作 。 


BHJ 的 实现 是 将 小 表 的 数据 广播 到 Spark 的 其 他 节点 ， 然 后 在 每 个 节点 上 独立 执行 连 


接 操作 ， 最 大 限度 地 利用 CPU 资源 专注 于 执行 连接 操作 。 这 种 Join 策略 在 一 定 程度 上 牺 


HE 


了 节点 空间 来 换取 Shuffle 操作 可 能 带 来 的 耗 时 操作 ， 但 广播 的 表 如 果 较 大 则 可 能 对 驱动 


器 节点 造成 较 大 的 压力 ， 因 为 广播 大 表 的 代价 是 昂贵 的 。 


本 文 将 基于 这 两 种 Join 策略 分 别 实现 两 表 间 的 证 认 计 算 ， 并 展开 对 比 研究 。 
]Join 操作 进行 证 认 计算 ， 选 择 BHI 更 


见 5.3 节 ， 实 验 表 明 : 当 计 算 资 源 足 够 时 两 表 间 采 


实验 结 


THA; Mit 
图 3 给 出 了 两 表 间 Join 流程 图 
RDD (Resilient Distributed Datasets) 


算 资 源 不 足 时 应 选择 SHJ。 


， 首 先 用 textFile 算 子 读 取 HDFS 元 数据 创建 为 
号 ， 然 后 用 map 算 子 和 toDF 函数 将 RDD 转换 为 
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DataFrame。 根 据 Healpix 索引 将 两 表 连 接 返 回 新 的 DataFrame, Hif H] withColumn 函数 
新 增 一 列 (两 个 天 体 之 间 的 角 距 离 ) 并 使 用 filter 函数 过 滤 出 角 距离 小 于 阔 值 的 数据 ， 最 后 将 


符合 条 件 的 数据 输出 至 HDFS (Hadoop Distributed File System)", 完成 星 表 数据 的 时 序 


重组 过 程 。 


textFile 
RDD1(idra,dec,healpixID…)， 
RDD2(idra,dec,healpixID…) 
map, toDF 


dfl (id,ra,dec,healpixID,::-), 
df2(id,ra,dec,healpixID,::-) 


df(idl,id2,timel,time2,::-) 


withColumn, filter 


dfwithDis(idl,id2,timel,time2,distance,::-) 


saveAsTextFile 


图 3 两 表 间 Join 流程 图 


4 基于 Spark 的 海量 星 表 数 据 时 序 重 构 方 法 和 重点 效率 突破 


4.1 &T Spark 的 海量 星 表 数据 时 序 重 构 方法 设计 架构 

本 文 提出 一 种 基于 Spark 的 异步 非 阻塞 模式 下 的 海量 星 表 时 序 重 构 方法 ， 其 整体 框架 
如 图 4 所 示 。 预 处 理 阶 段 ， 有 效 地 对 原始 星 表 数 据 进行 过 滤 ， 从 而 降低 存储 和 证 认 成 本 并 
生成 元 数据 文件 ， 然 后 计算 HEALPix 索引 并 将 数据 进行 格式 化 处 理 。 值 得 注意 的 是 ， 天 体 
所 在 块 的 相 邻 块 索引 也 须 记 录 下 来 ， 以 便 在 参考 星 表 中 隐 余 存放 相 邻 块 数据 的 边缘 数据 。 最 
后 通过 Spark 自 定义 分 区 函数 将 星 表 数 据 划 分 在 不 同 的 HEALPix 区 块 文件 中 ， 等 待 下 一 步 
证 认 计 算 。 接 下 来 将 预 处理 后 的 星 表 进行 分 布 式 证 认 计 算 ， 最 后 阶段 生成 天 体 的 时 序数 据 。 
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Executor Executor 
'Task 'Task 
'Task 'Task 


时 序数 据 生成 


分 区 1 分 区 2 分 区 n 
时 序数 据 时 序数 据 \ ” “*® \ 时 序数 据 


时 序数 据 


4 ”基于 Spark 的 海量 星 表 数 据 时 序 重 构 方法 整体 框架 图 


4.2 € Join 证 认 计算 方法 

第 3 章 介 绍 了 将 距离 计算 和 浆 值 过 滤 集 成 于 数据 库 连 接 操作 的 方法 ， 这 种 方法 编程 简 
单 ， 实 现 方便 ， 但 频繁 的 Join 操作 仍 会 对 效率 产生 一 定 影响 。 为 了 进一步 优化 效率 ， 这 里 
考虑 了 一 种 直接 将 距离 计算 公式 和 净值 过 滤 作 用 于 HDFS 数据 文件 的 免 Join 方法 。 不 同 
HEALPix 分 区 数据 并 行 执行 证 认 计算 任务 ， 需 要 频繁 读 写 的 参考 星 表 存 储 在 内 存 中 ， 连 续 
时 间 轴 上 星 表 按 照 时 间 顺 序 依次 和 参考 星 表 中 的 天 体 进行 证 认 计 算 ， 证 认 计算 流程 如 图 5 
所 示 。 这 种 方法 将 与 本 文 基于 Join 操作 的 方法 ， 以 及 前 人 优秀 方法 进行 对 比 。 

(1) 从 HDFS 中 读 取 星 表 数 据 后 首先 创建 当前 分 区 的 参考 星 表 。 

(2) 若 当 前 分 区 有 待 证 认 天 体 且 Redis 数据 库 中 有 当前 分 区 边缘 天 体 ， 则 依照 参考 星 
更 新 同步 问题 的 解决 方案 ， 将 边缘 天 体 更 新 到 参考 星 表 中 。 

(3) Æ Redis 数据 库 中 没有 当前 分 区 边缘 天 体 或 者 已 经 更 新 完成 ， 则 将 下 一 时 间 段 星 表 
和 参考 星 表 进行 证 认 计算 : 若 匹 配 失败 则 认为 该 天 体 为 新 天 体 ， 将 其 加 入 参考 星 表 中 ; ALC 
配 成 功 则 将 两 个 天 体 数据 进行 记录 。 

(4) 如 果 新 天 体 为 边缘 天 体 ， 则 说 明 相 邻 分 区 可 能 发 生 了 边缘 漏 源 ， 首 先 将 其 加 入 
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Ww 
m L 
RI 
d 


Reids 数据 中 ， 通 过 步骤 (2) 该 边缘 天 体会 被 加 入 相 邻 分 区 的 参考 星 表 中 ， 通 过 
抑 余 存放 边缘 天 体 ， 避 免 边缘 漏 源 的 发 生 。 
(5) 重复 步骤 (2) 直到 当前 分 区 全 部 时 间 段 的 星 表 完 成 证 认 。 


创建 参考 星 表 


1 


AE 
a. 将 边缘 天 体 
是 否 有 边缘 天 体 二 一 是 更 新 到 参考 星 表 


f 


下 一 时 间 段 
星 表 和 参考 
星 表 进 行 证 认 计算 


基于 位 置 的 
证 认 是 否 成 了 


将 未 证 认 成 功 的 
天 体 加 入 参考 星 表 


记录 时 序数 据 


加 入 Redis 数 据 库 


5 ”基于 Spark 的 时 序 重 构 计 算 流 程 图 


5 实验 分 析 


5.1 ”实验 环境 与 数据 集 
实验 使 用 Spark 分 布 式 集群 作为 计算 平台 ，Spark 集群 采用 3 人 台 阿 里 云 服 务 器 进行 搭 
建 ， 其 中 Master 节点 配置 在 1 台 服 务 器 ，Worker 节点 配置 在 3 台 服 务 器 ， 每 台 服 务 器 使 用 
相同 的 配置 ， 具 体 配 置 参 数 如 表 1 Aas. Spark 采用 Yarn-cluster 运行 模式 ， 每 个 计算 节点 
分 配 2 核 逻 辑 CPU 和 8 GB 的 内 存 。 不 同 实 验 将 虚拟 化 不 同 的 计算 节点 进行 计算 和 分 析 。 
本 文 利 用 南极 巡天 望远镜 AST3-I 和 AST3-II 分 别 在 2012 年 和 2016 年 观测 的 真实 星 表 
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表 1 环境 配置 参数 


参数 值 
CPU 型 号 Intel(R) Xeon(R) Platinum 8369B 
X CPU 数量 64 
内 存 大 小 64 GB 
操作 系统 CentOS Linux release 7.8.2003 
JDK 版 本 JDK 1.8.0.261 
Scala 版 本 2.12.12 
Redis 版 本 5.0.14.1 
Hadoop 版 本 3.1.2 
Spark 版 本 3.0.0 


数据 进行 实验 。 如 表 2 所 示 ， 数 据 集 信息 包含 了 数据 来 源 、 数 据 集 名 称 、 文 件数 目 、 原 始 文 
件 大 小 和 预 处 理 后 文件 大 小 。 实 验 源 代码 已 上 传 至 Github (https://github.com/Liltsliverfish 


/A-time-series-reconstruction-method-of-massive-astronomical-catalogues-based-on-Spark)。 


表 2 ”数据 集 信息 
数据 集 来 源 ”数据 集 名 称 ”文件 数 原文 件 大 小 /GB ” 预 处 理 后 文件 大 小 /GB 


AST3-II Tess4 1882 2.23 0.53 
AST3-I HD88500 591 2.29 1.89 
AST3-I HD117688 655 6.36 5.31 
AST3-I HD136488 16 874 8.3 5.50 
AST3-I HD14341 660 11.3 6.90 
AST3-II Tess5-13 1442 19.7 9.30 
AST3-I Transit 3158 93.82 78.21 


5.2 ” 星 表 预 处 理性 能 评价 

为 了 分 析 星 表 文 件 的 预 处 理性 能 ， 图 6 给 出 了 不 同 数据 集 预 处 理 前 后 的 文件 大 小 和 预 
处 理 时 间 。AST3-I 的 数据 集 预 处 理 后 星 表 文 件 大 约 是 原始 文件 的 28%, AST3-II 的 数据 集 
预 处 理 后 约 为 原始 文件 的 83%%。 预 处 理 时间 在 可 以 接受 的 范围 内 。 根 据 处 理 后 的 文件 大 小 
可 知 ， 预 处 理 原始 星 表 数据 可 以 极 大 地 降低 数据 的 存储 量 ， 节 省 存储 时 间 ， 同 时 也 节省 不 必 
要 的 跨 节 点 数据 传输 时 间 ， 从 而 提高 时 序 重 构 的 效率 。 
5.3 ”两 表 间 不 同 Join 算法 对 比 

为 了 验证 BHJ 和 SHJ 两 种 Join 算法 下 两 表 间 证 认 计算 的 表现 ， 实 验 中 利用 Tess4 数 
据 集 在 不 同 节点 和 不 同 数据 量 下 分 别 进行 了 Join 计算 。 

由 图 7a) 可 知 ， 当 星 表 数据 量 一 定时 ， 不 同 节 点 下 两 表 间 采用 BHJ 算法 证 认 计算 的 运 
行 时 间 都 少 于 SHJ。 当 计算 节点 数 为 16 时 ， 采 用 BHI 证 认 计算 的 用 时 相 比 采用 SHJ 减少 
56.6%. HEI 7b) 可 知 ， 当 计算 节点 为 32 时 ， 在 不 同 星 表 数 据 量 的 情况 下 ， 采 用 BHJ 计算 
的 用 时 同样 少 于 采用 SHJ AX SHJ 算法 的 Shuffle 操作 十 分 耗 时 ， 其 会 导致 星 表 数据 在 不 


1 期 ， 等 ; 基于 Spark 分 布 式 框架 的 海量 星 表 数据 时 序 重 构 方法 研究 85 


一 e 一 原始 文件 大 小 
—e- menge 175 


= 预 处 理 


80 


60 


40 


文件 大 小 /GB 
预 处 理 时 间 /min 


20 


"me 8 m 


Tess4 HD88500 HD117688 Tess5-13 = HD143414 Transit 
数据 集 


6 ” 预 处 理性 能 (HEALPix 层级 =10) 


同 节点 间 进 行 传输 。 值 得 注意 的 是 ， 当 实验 中 配置 计算 节点 内 存 为 1 GB， 两 表 数 据 大 小 分 
别 达 到 150 MB 和 600 MB IN, KA BHJ 算法 出 现 了 内 存 不 足 的 情况 ， 进 而 导致 证 认 计 算 
失败 。 因 此 ， 当 计算 资源 足够 时 ， 两 表 间 进行 Join 操作 进行 证 认 计算 选择 BHI 更 有 优势 ; 
而 当 计 算 资源 不 足 时 应 选择 SHJ。 


=E SHJ: 15 MB Join 50 MB 
== BHJ: 15 MB Join 50 MB 15 MB Toin 690 E 


I m 15 MB Join 450 ME JN 
节点 数 : 32 


m 
z 15MB Join 300 MB 
E m-- ues 
15 MB Join 150 MB 
15MB som 50 MB 
1 — — — — — — _,, Ad = 
0 10 20 30 40 50 60 70 80 0 10 20 30 40 50 
UEW VE SERI [RI /s UEW TE SEIS RI /s 
a) b) 


YE: a) 不 同 计算 节点 数 两 表 间 Join 对 比 : b) 不 同 数据 量 两 表 间 Join 对 比 。 


7 ”两 表 间 Join KLE 


5.4 % Join 证 认 方 法 性 能 评价 
5.4.1 不 同 HEALPix 层级 免 Join 证 认 方法 表现 

不 同 HEALPix 层级 对 星 表 划 分 粒度 不 同 ， 层 级 越 深 划分 粒度 越 细 ， 即 分 块 越 多 ， 边 缘 
数据 也 随 之 增多 ， 因 此 需要 额外 的 时 间 来 处 理 边缘 数据 ， 同 时 也 涉及 边缘 数据 的 跨 节点 更 
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新 。 层 级 数 划 分 越 小 ， 则 每 个 分 区 包含 的 天 体 数量 增多 ， 计 算 量 也 会 随 之 增 大 。 对 于 同 源 星 


表 ， 大 多 数 情 况 下 目标 天 区 的 天 体 分 布 不 均匀 。 在 本 文 实验 中 的 
天 体 数 量 甚至 只 有 个 位 数 ， 所 以 当 层 级 划分 得 太 小 时 ， 天 体 数 
恨 费 了 计算 资源 ， 无 法 充分 发 挥 分 布 计算 的 性 能 。 
能 有 极 大 的 影响 ， 需 要 提 


空闲 状态 ， 从 而 ; 
取 对 于 时 序 重 构 的 性 


杂 度 。 


Ed 
A 


EE 表 划 分 中 ， 一 些 分 区 的 
量 少 的 节点 大 多 数 时 间 处 于 
因此 ，HEALPix 层级 选 


前 选择 最 优 的 HEALPix 层级 ， 降 低 计 算 的 复 


HAI AY 64 个 计算 节点 在 不 同 HEALPix 层级 下 


为 了 选取 合适 的 HEALpix 层级 ， 实 验 


分 别 对 多 个 数据 量 相近 的 数据 集 进 行 了 时 序 重 构 的 实验 。 如 


数据 集 ，HEALPix 层级 为 10 的 计算 运行 时 
间 都 会 增加 。 由 于 HEALPix 是 四 又 树 结 构 ， 


加 约 4 倍 ， 导 致 证 认 计算 的 任务 数量 增加 。 


图 8 所 示 ， 对 于 实验 中 的 所 有 
上 四 最 少 ， 降 至 8 和 9 或 升 至 11 和 12， 计 算 时 
HEALPix 层级 每 升 一 级 ， 星 表 的 分 块 数量 增 


如 果 任 务 太 多 ， 任 务 启动 和 切换 开销 便 会 大 


i 


增加 ， 导 致 性 能 下 降 。HEALPix 层级 每 降 
包含 的 数据 量 增加 为 原来 的 4 倍 左 右 ， 因 而 
行 计 算 能 力 ， 
本 文 的 实验 环境 ，HEALPix 划分 的 层 
层级 都 为 10 级 。 当 然 ， 不 同 的 测试 环 ] 


Bir, 


ERRATE, TINA BESS HM A e T H 
级 为 10 级 时 是 最 优 的 选择 ， 在 后 续 实 验 中 HEALPix 


级 ， 星 表 的 分 块 数量 减 至 1/4， 但 是 每 个 分 区 
导致 任务 数 


E 


4 


少 ， 无 法 充分 发 挥 出 集群 的 并 


H (out of memory) 的 异常 。 对 了 


BA 


此 值 可 能 会 存在 差异 。 
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图 8 


5.4.2 ”不同 节点 免 Join 方法 性 能 评价 
为 了 满足 时 序 重 构 中 的 效率 和 精度 要 求 
^& Join ill 
由 图 9 BY A, E A SEBS ul 
点 数 一 定 时 ， 除 Tess5-13 BEE Zh, ul 
Tess5-13 数据 集 的 数据 文 伯 


F 认 方法 ， 该 方法 突破 传统 的 Join 算法 ， 可 以 进 


E 认 计算 时 间 随 着 数据 集 文件 大 小 的 增加 而 增加 。 
F 总 大 小 与 HD117688 数据 集 比较 接近 ， 但 是 Tess5-13 数据 集 证 


10 
EALPix/z 


不 同 HEALPix BRP SK Join 证 认 计 算 时 间 


， 本 文 提 出 了 基于 Spark 的 异步 非 阻 塞 模式 的 


步 提 高 时 序 重 构 的 效率 。 
FE 认 计算 时 间 随 着 计算 节点 数 的 增加 而 减少 。 当 计算 节 
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认 计 算 用 时 比 HD117688 数据 集 多 了 约 56%， 这 是 由 于 Tess5-13 数据 集 的 边缘 数据 较 多 ， 
需要 花费 时 间 来 处 理 边缘 数据 ， 因 此 Tess5-13 数据 集 的 计算 用 时 多 。 


Transit 数 据 集 证 认 计算 时 间 /min 
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图 9 不 同 HEALPix BRP SK Join 证 认 计算 时 间 


5.3 # Join 证 认 方 法 综合 性 能 评价 

为 了 验证 免 Join 方法 的 整体 性 能 ， 实 验 中 利用 AST3-I 数据 集 在 不 同 计算 节点 下 进行 
了 实验 ， 其 中 数据 集 大 小 为 100 GB。 如 图 10 所 示 ， 证 认 计 算 时 间 随 着 节点 数 的 增加 而 减 
少 ， 在 计算 节点 为 64 时 ， 证 认 计 算 时 间 仅 用 为 6.18 min. 


64 EE AST3-I 


计算 节点 数 


0 50 100 150 200 250 
证 认 计 算 时 间 /min 


图 10 ”不 同 节点 下 综合 实验 性 能 表现 


图 11 给 出 不 同 计算 节点 下 的 加 速 比 ， 随 着 计算 节点 的 增加 ， 加 速 的 效果 开始 显现 ， 当 
然 其 中 一 部 分 是 因为 参考 星 表 的 副本 策略 和 降低 跨 节 点 数据 传输 量 的 出 色 表 现 。 随 着 计算 
节点 的 增加 ， 证 认 计 算 消耗 的 时 间 逐 渐 减 少 ， 基 本 呈 线 性 增长 趋势 。 
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124 8 16 32 64 


图 11 ”综合 实验 加 速 比 随 计算 节点 数 的 变化 


5.4.4 与 他 人 工作 相 比 


当前 ， 连 续 多 星 表 间 的 时 序 重 构 工 作 还 较为 少见 。Yu 等 人 "的 研究 工作 与 本 文 工 作 
最 为 接近 。 他 们 通过 MPI 编程 实现 并 行 计 算 ， 实 验 环境 的 操作 系统 为 Ubuntu、 处 理 器 为 
Intel i7-4790 CPU (8 cores @ 3.6 GHz)、 内 存 大 小 为 16 GB。 本 文 使 用 相同 的 数据 集 与 他 
们 在 6 个 进程 下 的 实验 结果 进行 比较 。 结 果 显 示 ， 虽 然 Yu 等 人 方法 提供 了 可 视 化 界面 ， 在 
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使 用 性 方面 更 具有 优势 ， 但 是 证 认 计算 方面 利用 本 文 方法 采用 5 个 计算 节点 可 以 超越 其 性 


能 。 从 图 12 可 知 ， 当 计算 节点 数 继续 增加 ， 本 文 方法 可 以 获得 持续 性 1 


Lr. 


能 增加 。 当 节点 为 


64 个 时 ，HD88500、HD117688 和 HD136488 数据 集 证 认 计 算 的 耗 时 分 别 是 Yu 等 人 方法 耗 


时 的 3096. 1896 和 19%。 可 以 看 出 ， 本 文 算法 在 性 能 上 有 了 较 大 幅度 提升 。 而 且 ， 


随 着 分 


布 式 环境 中 节点 数量 的 增加 ， 本 文 的 方法 可 以 达到 接近 线性 的 加 速 比 ， 这 是 因为 方法 中 只 对 
参考 星 表 进 行 元 余 存 储 ， 其 他 星 表 按照 HEALPix 特定 级 别 进行 分 块 处 理 。 可 见 ， 主 要 的 并 


行 方式 是 数据 并 行 ， 不 同 节点 间 的 计算 任务 彼此 独立 ， 且 新 增 星体 的 多 节点 同步 更 关 


FANE Jr 


证 认 采 用 异步 形式 ， 因 此 证 认 计 算 过 程 中 ， 很 少 涉及 跨 界 点 数据 传输 ， 并 且 随 计算 节点 的 增 
加 ， 算 法 并 行 执行 效率 可 以 基本 达到 线性 加 速 比 。 综 上 所 述 ， 本 文 基于 Spark 的 大 规模 分 
布 式 架 构 和 良好 的 加 速 比 使 本 方法 共有 良好 的 可 扩展 性 ， 对 于 数据 量 不 断 增加 的 时 域 天 文 


观测 设备 来 说 具有 良好 的 适应 性 。 此 外 ， 本 文 时 序 重 构 方 法 只 需要 一 种 索引 方式 ， 有 效 节 省 


了 数据 存储 空间 。 在 计算 精度 方面 ， 本 文 方法 的 理论 漏 源 率 是 0，Yu 等 人 采用 HTM 索引 
和 HEALPix 索引 混合 计算 的 漏 源 率 约 为 4.5%。 可 见 ， 引 入 新 的 并 行 框架 、 进 行 算法 设计 


对 程序 性 能 的 提升 起 到 决定 性 的 作用 。 
5.4.5 不 同 证 认 方 法 的 比较 


为 了 对 比 免 Join 证 认 方 法 与 两 种 Join 算法 的 性 能 ， 本 文 利 用 HD88500 数据 集 在 64 个 
计算 节点 下 进行 了 实验 。 从 表 3 的 实验 结果 可 以 看 出 ， 免 Join 证 认 方 法 显然 比 传统 基于 


1 期 赵 青 ， 等 ， 基于 Spark 分 布 式 框架 的 海量 星 表 数 据 时 序 重 构 方 法 研究 89 


500r —9— HD88500: 本 文 方法 不 同 节点 实验 结果 
f —— HD88500: Yu 等 人 方法 6 进程 下 实验 结果 
—9— HD117688: 本 文 方法 
—— HD117688: Yu 等 人 7 
400r —9— HD136488: 本 文 方法 
—— HD136488: Yu 等 人 方法 6 进 和 


证 认 计算 时 间 /s 


12 ”与 他 人 方法 比较 


Join 的 证 认 方 法 更 加 高 效 。 基 于 Join 的 证 认 计算 方法 存在 跨 节 点 数据 传输 以 及 数据 倾斜 的 
问题 ， 而 免 Join 证 认 计算 方法 通过 前 期 的 预 处 理 避 免 了 大 量 的 跨 节 点 数据 传输 ， 大 大 减少 
了 证 认 计算 的 时 间 ， 提 高 了 证 认 的 效率 ， 可 以 更 快 得 出 证 认 计算 结果 。 


表 3 ”不同 证 认 方 法 比较 
证 认 方 法 SHJ BHJ f% Join 
证 认 计 算 时 间 /s 119.5 87.9 12 


6 结 语 


本 文 针 对 海量 天 文 星 表 数 据 的 时 序 重 构 面 临 的 挑战 ， 结 合 星 表 索引 、 算 法 设计 、 数 据 更 
新 等 问题 的 最 新 理论 方法 ， 解 决 了 海量 天 文 星 表 时 序 重 构 的 效率 和 精度 问题 ， 为 后 续 的 研究 
提供 了 数据 文 持 。 本 文 首先 提出 异步 非 阻塞 模式 下 的 时 序 重 构 方法 ， 提 出 基于 参考 星 表 副 
本 策略 ， 该 策略 在 保证 精度 的 前 提 下 减少 了 数据 传输 量 。 针 对 分 布 式 环境 下 的 数据 跨 节 点 
更 新 和 同步 问题 ， 本 文 对 于 不 同 的 情况 给 出 了 相应 的 解决 方法 。 此 外 本 文 还 对 两 表 间 采用 
Broadcast Hash Join 和 Shuffle Hash Join 两 种 Join 算法 从 理论 和 实验 两 个 角度 进行 了 研究 
和 对 比分 析 ， 分 别 给 出 了 适用 的 情况 。 最 后 基于 Spark 分 布 式 框架 提出 免 Join. 的 时 序 重 构 
方法 ， 更 加 高 效 地 实现 了 海量 天 文 星 表 的 时 序 重 构 。 实 验 表明 ， 本 文 设 计 的 时 序 重 构 算法 是 
高 效 的 、 可 行 的 、 有 实用 价值 的 ， 对 于 时 域 天 文学 的 发 展 有 一 定 促 进 作 用 ; 基于 Spark 的 
大 规模 分 布 式 计算 架构 和 接近 线性 的 加 速 比 ， 使 本 方法 对 于 GWAC 等 更 大 规模 的 时 域 望 远 
镜 的 星 表 时 序 重 构 任务 同样 具有 参考 价值 。 
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Astronomical Catalogues Based on Spark Distributed 
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of Science, Beijing 100101, China) 


Abstract: Time series reconstruction is a crucial data processing step in time domain as- 


tronomy and serves as the foundation for fitting light curves and conducting time domain 


analysis. For many large-field time domain surveys, it is necessary to complete this com- 


putational process within a single exposure cycle. With the rapid increase in astronomical 


data, existing methods for astronomical data processing struggle to simultaneously meet 


the accuracy and efficiency requirements of time-series reconstruction. The memory-based 


computing general-purpose distributed framework, Spark, holds the potential to improve the 
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efficiency of this process. However, applying Spark directly often encounters issues. MapRe- 
duce distributed models like Hadoop and Spark require relatively independent tasks among 
distributed cluster nodes and minimal data transfer across nodes during execution. Oth- 
erwise, frequent communication becomes an efficiency bottleneck for the application of the 
model. However, due to the presence of boundary problems in cross-matching, it is inevitable 
to transmit newly added data at the boundaries, severely restricting the concurrency of the 
model and reducing the acceleration ratio in practical parallel model applications. There- 
fore, we propose a non-blocking asynchronous execution flow, where each distributed process 
handles continuous processing exclusively for independent sky regions. The delayed batch 
appending of additional identification tasks from block-edge newly added celestial bodies 
in other nodes is determined based on the progress of each process. This ensures that 
identification calculations are not omitted, thereby improving concurrent efficiency while 
maintaining algorithm accuracy. Additionally, a research study was conducted on different 
join strategies between two tables, examining them from both theoretical and experimental 
perspectives. Furthermore, a join-free strategy was proposed. Finally, the design of an effi- 
cient time-series reconstruction system based on the Spark distributed framework validates 
the aforementioned research. Experimental results demonstrate a significant improvement 
in the efficiency of the proposed time-series reconstruction algorithm compared to previ- 
ous research, laying a solid foundation for the analysis of astronomical time-series data in 


time-domain astronomy. 


Key words: time domain astronomy; cross-match calculation; time series reconstruction; 


distributed computation; Spark 


